迄今为止,游戏中的学习研究主要集中在正常形式游戏上。相比之下,我们以广泛的形式游戏(EFG),尤其是在许多代理商远远落后的EFG中对学习的理解,尽管它们与许多现实世界的应用更加接近。我们考虑了网络零和广泛表单游戏的天然类别,该游戏结合了代理收益的全球零和属性,图形游戏的有效表示以及EFG的表达能力。我们检查了这些游戏中乐观梯度上升(OGA)的收敛属性。我们证明,这种在线学习动力学的时间平均值表现出$ O(1/t)$ rate contergence convergence contergence contergence。此外,我们表明,对于某些与游戏有关的常数$ c> 0 $,日常行为也与速率$ o(c^{ - t})$收敛到nash。
translated by 谷歌翻译
我们研究在线交互式强盗设置中的非模块化功能。我们是受到某些元素之间自然互补性的应用程序的动机:这仅使用只能代表元素之间竞争力的下函数来表达这一点。我们通过两种方式扩展了纯粹的下二次方法。首先,我们假设该物镜可以分解为单调下模量和超模块函数的总和,称为BP物镜。在这里,互补性自然是由超模型成分建模的。我们开发了UCB风格的算法,在每一轮比赛中,在采取行动以平衡对未知目标(探索)和选择似乎有希望的行动(剥削)的行动之间揭示的嘈杂收益。根据全知识的贪婪基线来定义遗憾和超模块化曲率,我们表明该算法最多可以在$ o(\ sqrt {t})$ hore $ t $ t $ t $ the $ t $ t $ the $ t $ t $ the $ the。其次,对于那些不承认BP结构的功能,我们提供了类似的遗憾保证,从其表现比率角度来看。这适用于几乎但不完全是子模型的功能。我们在数值上研究了Movielens数据集上电影推荐的任务,并选择用于分类的培训子集。通过这些示例,我们证明了该算法的性能以及将这些问题视为单次生管的缺点。
translated by 谷歌翻译
在随机上下文的强盗设置中,对遗憾最小化算法进行了广泛的研究,但是他们的实例最少的最佳武器识别对应物仍然很少研究。在这项工作中,我们将重点关注$(\ epsilon,\ delta)$ - $ \ textit {pac} $设置:给定策略类$ \ pi $,学习者的目标是返回策略的目标, $ \ pi \ in \ pi $的预期奖励在最佳政策的$ \ epsilon $之内,概率大于$ 1- \ delta $。我们表征了第一个$ \ textit {实例依赖性} $ PAC样品通过数量$ \ rho _ {\ pi} $的上下文匪徒的复杂性,并根据$ \ rho _ {\ pi} $提供匹配的上和下限不可知论和线性上下文最佳武器标识设置。我们表明,对于遗憾的最小化和实例依赖性PAC而言,无法同时最小化算法。我们的主要结果是一种新的实例 - 最佳和计算有效算法,该算法依赖于多项式呼叫对Argmax Oracle的调用。
translated by 谷歌翻译
学习问题通常表现出一个有趣的反馈机制,其中人口数据对竞争决策者的行为作出反应。本文为这种现象制定了一种新的游戏理论框架,称为多人执行预测。我们专注于两个不同的解决方案概念,即(i)表现稳定稳定的均衡和(ii)纳什均衡的比赛。后者均衡可以说是更具信息性的,但只有在游戏是单调时才有效地发现。我们表明,在温和的假设下,可以通过各种算法有效地发现所需稳定的均衡,包括重复再培训和重复(随机)梯度播放。然后,我们为游戏的强大单调性建立透明的充分条件,并使用它们开发用于查找纳什均衡的算法。我们研究了衍生免费方法和自适应梯度算法,其中每个玩家在学习其分发和梯度步骤的学习的分配和梯度步骤之间交替。合成和半合成数值实验说明了结果。
translated by 谷歌翻译
在博弈论中的精髓结果是von Neumann的Minmax定理,这些定理使得零和游戏承认基本上独特的均衡解决方案。古典学习结果对本定理构建,以表明在线无后悔动态会聚到零和游戏中的时间平均意义上的均衡。在过去几年中,一个关键的研究方向专注于表征这种动态的日常行为。一般结果在这个方向上表明,广泛的在线学习动态是循环的,并且在零和游戏中正式的Poincar {e}复发。在具有时间不变均衡的定期零和游戏的情况下,我们分析了这些在线学习行为的稳健性。该模型概括了通常的重复游戏制定,同时也是参与者之间反复竞争的现实和自然模型,这取决于外源性环境变化,如日期效果,周到一周的趋势和季节性。有趣的是,即使在最简单的这种情况下,也可能失败的时间平均收敛性,尽管有均衡是固定的。相比之下,使用新颖的分析方法,我们表明Poincar \'{E}尽管这些动态系统的复杂性,非自主性质,但是普及的复发概括。
translated by 谷歌翻译
Fruit harvesting has recently experienced a shift towards soft grippers that possess compliance, adaptability, and delicacy. In this context, pneumatic grippers are popular, due to provision of high deformability and compliance, however they typically possess limited grip strength. Jamming possesses strong grip capability, however has limited deformability and often requires the object to be pushed onto a surface to attain a grip. This paper describes a hybrid gripper combining pneumatics (for deformation) and jamming (for grip strength). Our gripper utilises a torus (donut) structure with two chambers controlled by pneumatic and vacuum pressure respectively, to conform around a target object. The gripper displays good adaptability, exploiting pneumatics to mould to the shape of the target object where jamming can be successfully harnessed to grip. The main contribution of the paper is design, fabrication, and characterisation of the first hybrid gripper that can use granular jamming in free space, achieving significantly larger retention forces compared to pure pneumatics. We test our gripper on a range of different sizes and shapes, as well as picking a broad range of real fruit.
translated by 谷歌翻译
我们挑战AI模型,以“展示”对《纽约客》标题比赛的复杂多模式幽默的理解。具体而言,我们开发了三个精心限制的任务,以掌握图像和标题之间的潜在复杂和意外的关系,并且对人类经验的广泛品种产生了复杂和意外的寓意;这些是纽约口径卡通的标志。我们调查了直接将卡通像素和字幕输入的视觉和语言模型,以及仅通过提供图像的文本描述来规避图像处理的仅限语言模型。即使我们为卡通图像提供了丰富的多方面注释,我们也可以确定高质量的机器学习模型(例如,微调,175b参数语言模型)和人类之间的性能差距。我们公开发布我们的语料库,包括描述图像的位置/实体的注释,场景的不寻常以及对笑话的解释。
translated by 谷歌翻译
机器学习和临床研究社区利用现实世界数据(RWD)的方法,包括电子健康记录中捕获的数据(EHR)截然不同。虽然临床研究人员谨慎使用RWD进行临床研究,但用于医疗团队的ML会消费公共数据集,并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距,ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目,分别是不同的医疗状况和不同的人群。在这五个项目中,共收集了247,536名患者的RWD,共有2,999项质量检查和24份质量报告。出现了五种可推广的实践:所有项目都使用类似的方法来分组冗余数据元素表示;所有项目都使用自动实用程序来构建诊断和药物数据元素;所有项目都使用了一个共同的基于规则的转换库;所有项目都使用统一的方法将数据质量检查分配给数据元素;所有项目都使用类似的临床裁决方法。包括临床医生,数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA,每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用,并为团队提供了开展这些基本活动的框架。
translated by 谷歌翻译
机器人和人类月球着陆是未来NASA任务的重点。精确着陆功能对于确保任务的成功以及着陆器和机组人员的安全至关重要。在进入表面的方法中,存在与危险相对导航相关的多个挑战,以确保安全着陆。本文将重点介绍被动自主危害检测和避免子系统,以对指导系统的可能着陆区进行初步评估。该系统使用单个摄像头和Mobilenetv2神经网络体系结构来检测和辨别安全的着陆点和危险,例如岩石,阴影和陨石坑。然后,来自运动的单眼结构将重新创建表面以提供斜率和粗糙度分析。
translated by 谷歌翻译
蜂窝提供商和数据聚合公司从用户设备中占群体的Celluar信号强度测量以生成信号映射,可用于提高网络性能。认识到这种数据收集可能与越来越多的隐私问题的认识可能存在赔率,我们考虑在数据离开移动设备之前混淆这些数据。目标是提高隐私,使得难以从混淆的数据(例如用户ID和用户行踪)中恢复敏感功能,同时仍然允许网络提供商使用用于改进网络服务的数据(即创建准确的信号映射)。要检查本隐私实用程序权衡,我们识别适用于信号强度测量的隐私和公用事业度量和威胁模型。然后,我们使用几种卓越的技术,跨越差异隐私,生成的对抗性隐私和信息隐私技术进行了衡量测量,以便基准,以基准获得各种有前景的混淆方法,并为真实世界的工程师提供指导,这些工程师是负责构建信号映射的现实工程师在不伤害效用的情况下保护隐私。我们的评估结果基于多个不同的现实世界信号映射数据集,展示了同时实现了充足的隐私和实用程序的可行性,并使用了使用该结构和预期使用数据集的策略以及目标平均案例的策略,而不是最坏的情况,保证。
translated by 谷歌翻译